Google Web 5gram 数据集

提供者:卢梦依
下载地址:https://catalog.ldc.upenn.edu/LDC2006T13

简介

数据集概述

由Google Inc.提供的Web 1T 5-gram第1版包含英文单词n-gram及其观察到的频率计数。 n-gram的长度范围从unigrams(单个单词)到5-gram。 预计该数据对于统计语言建模是有用的,例如用于机器翻译或语音识别以及用于其他用途。n-gram计数来自可公开访问的网页上大约1万亿字的文本标记。可以自动检测到文档的输入编码,并将所有文本转换为UTF8。

文件

大小:约24 GB压缩(gzip)。文本文件标记数量:1,024,908,267,229,句子数量:95,119,665,584,unigrams数量:13,588,391,bigrams数量:314,843,401, trigrams数量:977,069,902,四 fourgrams数量:1,313,818,354, fivegrams数量:1,176,470,663。
类型:数据以类似Penn Treebank华尔街日报部分的标记化的方式进行标记。 值得注意的例外包括以下内容:
被连字的词通常是分开的,并且连字符的数字通常构成一个记号。用斜线(例如日期)分隔的数字序列形成一个标记。看起来像网址或电子邮件地址的序列形成一个令牌。

相关论文

1.Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. DBLP, 2010:1045-1048.
2.Song F, Croft W B. A general language model for information retrieval[C]// Eighth International Conference on Information and Knowledge Management. ACM, 1999:316-321.
3.Ieee L R B M, Brown P F, Souza P V D, et al. A Tree-Based Statistical Language Model for Natural Language Speech Recognition[J]. Readings in Speech Recognition, 1990, 37(7):507-514.